中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

随着人工智能技术的迅速发展，大语言模型在推理任务中的表现成为研究重点。以 OpenAI 为例，其秋季发布的 o1-preview 大模型在竞赛级数学、代码和博士级科学问题中表现出色，展示了新一代模型的强大潜力。

为更精确评估大模型的推理能力，我们基于中文基准测评经验，推出了链式推理测评 SuperCLUE-Reasoning。该基准评估中文大模型在推理任务中的能力，特别关注思维链和自我反思能力，全面衡量模型的自我纠正和完善能力。这一框架旨在为未来模型研发提供参考，确保其在复杂任务中具备更高的可靠性和灵活性。

排行榜地址：www.SuperCLUEai.com

#SuperCLUE-Reasoning 链式推理

#测评流程

#「链式推理」展现效果图

1. 特点

（1）考察模型思维链与自我反思能力

该评测方案引入了对模型思维链和自我反思能力的考察，重点在于评估模型在推理过程中发现并纠正自身错误的能力。这种设计不仅能反映模型在复杂任务中的自我完善机制，还能增强其自主学习能力和可靠性。

（2）结合客观与主观评估

评分标准既评估最终答案的准确性，也考量模型推理过程中的逻辑清晰度、策略运用与错误识别。这种方法确保全面反映模型的推理能力，同时鼓励多样化的推理方式，以推动模型在推理过程中的优化和反思。

2. 测评任务

为了更有效地评估大模型在推理任务中的表现，我们设计各类不同类型的复杂推理任务，随后开展了测评。

提示词结构：问题 +【解题要求】

【解题要求】，完整内容如下：请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。

【思维过程和自我反思】包括：

1.使用思维链来思考，优化思考过程，进行任务分解；

2.尝试不同策略（如有必要）；

3.识别错误，进行自我校验与改正，当确认无误后再提交作答（若有必要）。

【解题过程和最终答案】包括：解题的逻辑思路与详细过程还有最终得到的答案。

注：解题要求的具体内容，以正式发布的测评报告为准。

2.1 推理示例 1（维吉尼亚密码）

现在有一道推理题，如下所示：

lxpcklhxyji -> brilliant gpt，秘钥是 SuperCLUE。

使用上面的例子来解码：

dyiwgnlseyubi

2.2 推理示例 2（三密码）

现在有一道推理题，如下所示：

aaafywwylpgdbfjpfeeacbipaaanrd wactbtwtqiaemklrbpmblsaadefjtlbbegec -> artificial intelligence

使用上面的例子来解码：yqortyimzgbfqxmgaafiutqzmaa zbzhafaaapxqsrhijwmeivdpagm nxjowpnnqoaniaedcbzrp

2.3 推理示例 3（简谐运动）

现在有一道推理题，如下所示：

质量为 m 的一系列小物块用倔强系数为 k 的小弹簧等间隔（间隔为d）地连接成一排。当左端物块做角频率为 ω 的左右简谐振动时，此振动将从左至右逐渐传播，使各物块相继做同频率、同振幅的振动，求传播速度。

2.4 推理示例 4（波的干涉）

现在有一道推理题，如下所示：

相距 l=100m 的两个波源沿着它的连线方向，向两边发出平面简谐波，两波深频率同为 f = 50Hz，振幅同为 A = 0.1m，波长同为 2m，振动相位相反。求两波源之间发生干涉、相长和相消的各点的位置，以及两波源外侧各点的振幅。

3.评分标准和评估示例

评分标准

针对各个大模型在测评任务上的回答质量评估，我们采用了三个统一的评估标准进行评估。这些标准在评估中被赋予不同的权重，以全面反映大模型在推理任务上的表现。

我们制定的综合评分标准满分为20分，其中大模型的思维过程和回答质量各占10分。回答质量的评分细分为解题过程5分和最终答案5分。

注：具体的评估标准及权重以正式发布的测评报告为准。

评估案例对比

案例1：维吉尼亚密码

问题：现在有一道推理题，如下所示：

tlxpcklhxyji -> brilliant gpt，秘钥是 SuperCLUE。

使用上面的例子来解码：dyiwgnlseyubi

请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。

【思维过程和自我反思】包括：

1. 使用思维链来思考，优化思考过程，进行任务分解；

2. 尝试不同策略（如有必要）；

3. 识别错误，进行自我校验与改正，当确认无误后再提交作答（若有必要）。

【解题过程和最终答案】包括：解题的逻辑思路与详细过程还有最终得到的答案。

模型（国际大模型 1）回答：

超级模型评分（对于国际大模型 1）：

对这个答案进行评估如下：

AI助手对问题的整体理解和推导方法是正确的，确认了使用维吉尼亚密码并成功解码了新的加密文本。但它解答过程较为冗长，特别是在多个环节重复详细的步骤描述，可以略微简化以提高可读性。

思维过程（10分）：AI助手的解题方法是正确的，包括对维吉尼亚密码的验证和解码过程，能够准确解码新密文。再加上其尝试了不同策略并进行自我校验，最终得出正确答案，因此得分10分。

得分：10/10

解题过程（5分）：AI助手解题过程清晰严谨，逻辑连贯，步骤详细且无误。尽管可以简化以提高可读性，但从解题过程的完整性与准确性出发，得分为4.5分。

得分：4.5/5

最终答案（5分）：AI助手最终答案正确无误，且与解题思路一致。因此，得分为5分。

得分：5/5 综合得分 = 10 + 4.5 + 5 = 19.5 综合以上，AI助手的回答的综合得分为 19.5 分。

模型（国产大模型 1）回答：

超级模型评分（对于国产大模型 1）：

对这个答案进行评估如下：

AI助手提供了详细的编码过程和规律，清楚地描述了推理思路，但错误的最终解码方案——它得出了错误的替换方式导致错误的答案，没有形成维吉尼亚替换。

思维过程（10分）：AI助手对问题进行了详细的分析并提出了一种可能的解码规则，虽然有努力推理的迹象，但提出的解码方式是错误的。依据标准1b，得分：6分。

得分：6/10

解题过程（5分）：解题过程的逻辑较为严密，但解密步骤及方案未能形成正确的解题过程。得分：2.5分。

得分：2.5/5

最终答案（5分）：最终答案错误。得分：0分。

得分：0/5 综合得分 = 6 + 2 + 0 = 8.5

综合以上，AI助手的回答的综合得分为 8.5 分。

案例2：三密码

问题：现在有一道推理题，如下所示：

aaafywwylpgdbfjpfeeacbipaaanrd wactbtwtqiaemklrbpmblsaadefjtlbbegec -> artificial intelligence

使用上面的例子来解码：yqortyimzgbfqxmgaafiutqzmaa zbzhafaaapxqsrhijwmeivdpagm nxjowpnnqoaniaedcbzrp

请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。

【思维过程和自我反思】包括：

1. 使用思维链来思考，优化思考过程，进行任务分解；

2. 尝试不同策略（如有必要）；

3. 识别错误，进行自我校验与改正，当确认无误后再提交作答（若有必要）。

【解题过程和最终答案】包括：解题的逻辑思路与详细过程还有最终得到的答案。

模型（国际大模型 2）回答：

超级模型评分（对于国际大模型 2）：

对这个答案进行评估如下：

AI助手在回答中分析并解释了解码和编码过程，但过程推导有明显缺陷，比如没有对新密文作全面的验证。模型对于重复与打乱顺序的假设没有很好地应证，而且似乎误解了示例中的验证方式。另外，它没有提供新字符串解码过程中可能出现的错误识别和自我校正过程。

思维过程（10分）：AI助手分析了示例编码，推测了密码的可能原理，但其最终推导过程存在不足，未能验证其推测的正确性。缺乏对错误的进一步检查与修正，因此得分较低。基于标准1的得分：6分。

得分：6/10

解题过程（5分）：尽管AI助手进行了详细推理和步骤描述，但其过程的逻辑和假设存在不准确之处。解题步骤完整但明显冗长且不全正确，因此得分较低。基于标准2的得分：2分。

得分：2/5

最终答案（5分）：AI助手未能正确解码新的密文，存在直接错误。基于最终答案的打分：0分。

得分：0/5 综合得分 = 6 + 2 + 0 = 8

综合以上，AI助手的回答的综合得分为 8 分。

模型（国产大模型 2）回答：

超级模型评分（对于国产大模型 2）：

对这个答案进行评估如下：

AI助手回答混合了两个部分的思维过程，主要盲目猜测替换规则以及频率统计未得正解。具体解题逻辑指导缺乏有效的字母映射和解码确认。AI助手提供了解析步骤，但是在详细的转换和跨字符求和平均值时出现了误差。

思维过程（10分）：模型尝试了多种思维路径，涉及字符分析和映射法，但未能清晰界定密钥影响，最终方法未能合理解码。基于标准1的得分：6分。

得分：6/10

解题过程（5分）：逻辑不够紧密，缺乏有力说明，字符映射结果不完整且不合理。解题步骤未严格遵循推理过程。基于标准2的得分：2.5分。

得分：2.5/5

最终答案（5分）：最终答案与给定的解码结果明显不符，明显错误。基于标准3的得分：0分。

得分：0/5 综合得分 = 6 + 2.5 + 0 = 8.5

综合以上，AI助手的回答的综合得分为 8.5 分。

测评集构建

推理任务中文题库构建流程：

1. 参考国内外现有的推理题库的标准

2. 中文推理题撰写

3. 小批量测试

4. 修改并确定推理中文任务体系，参考国内外的标准，构建专用的测评集。

评分方法

评估流程：1.获得问题、模型答案和参考答案-->2.依据评估标准-->3.使用评分规则-->4.进行打分

结合超级模型，在定义的指标体系里明确每一个评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得评估结果。

# 测评邀请

时间规划

1.报名时间开始：10月14日

2.参测评模型确认：10月21日

3.测评结果发布：10月28-31日之间

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：SuperCLUE-Reasoning高阶推理测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、代码助手简介、联系人和所属部门、联系方式

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

2.1 推理示例 1（维吉尼亚密码）

现在有一道推理题，如下所示：

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

2.1 推理示例 1（维吉尼亚密码）

现在有一道推理题，如下所示：

您可能也对以下帖子感兴趣